24 research outputs found

    Neural morphological generators for Hungarian

    Get PDF
    Here we present a set of morphological generators for Hungarian that generate surface forms from emMorph and Universal Dependencies (UD) morphological tags with high accuracy. We experimented with two approaches: first, neural machine translation models were trained based on the morphological analysis as the source format and the corresponding surface form as the target format. Second, we tackled the problem as a text generation task, where the morphological analysis is followed by the correct word form. The corpus we used is a normalised version of Webcorpus 2.0 (Nemeskey, 2020). Marian MT proved to produce the best results, thus we evaluated its output manually on NerKor (Simon and Vadász, 2021). Our analysis shows that the generator achieves a high accuracy of 96.27% in the case of emMorph and 94.94% in the case of UD. After manual evaluation, we counted a more concise accuracy, which is 99.43% (emMorph) and 98.69% (UD). This model may be used for several NLP tasks, such as anonymisation and terminology translation

    Hol ugat a kutya? Örömében : helyhatározói esetragos névszók pontosabb annotációja

    Get PDF
    Tanulmányunkban ismertetjük a helyhatározói esetragos névszók pontosabb annotációját célzó kutatásunkat, melyet egy szövegekkel kapcsolatban releváns kérdéseket megfogalmazni képes elemzőrendszer igényei motiválnak. A Hol?, Honnan? és Hová? kérdésekre felelő háromhárom-három esetrag egyikét magán viselő névszók kategorizációja, a mondatban betöltött határozói szerepének pontosabb definiálása elkerülhetetlen a határozókra irányuló megfelelő kérdések megfogalmazásához. Cikkünkben a magyar UD-korpusz alapján 30 kategóriát mutatunk be, melyek megfelelőek ahhoz, hogy a velük annotált névszók határozói szerepe felismerhető és kérdezhető legyen

    Magyar melléknevek poliszém jelentéseinek automatikus kinyerése gráfokkal

    Get PDF
    A cikk egy kutatás első fázisát mutatja be, amelynek célja interpretálható poliszém melléknévi jelentések automatikus kinyerése egynyelvű korpuszból egy felügyelet nélküli tanulási keretben. Kiindulásként 4 kritériumot határoztunk meg a jelentések elkülönítésére. A mellékneveket statikus szóbeágyazásokkal reprezentáltuk, majd ezekből egy szemantikai hasonlósági gráfot állítottunk elő. A jelentések elkülönítésére szolgáló kritériumokat ezen gráf részgráfjaival modelleztük. Végül egy részletes kvalitatív kiértékelés következett. Kutatásaink hosszabb távon hozzájárulnak a lexikográfusok és a nyelvészek munkájához, de a lexikális szemantikai információt tartalmazó NLP-célú benchmark adatbázisok létrehozását is segítik
    corecore